技術問答
技術文章
iT 徵才
Tag
聊天室
2025 鐵人賽
登入/註冊
問答
文章
Tag
邦友
鐵人賽
搜尋
2023 iThome 鐵人賽
DAY
26
0
AI & Data
進入AI的世界
系列 第
26
篇
➤D-26 核心應用☞自然語言處理-2(主要架構)
15th鐵人賽
epoch
團隊
臣無禮
2023-10-11 13:02:43
701 瀏覽
分享至
主要架構
階層分析架構
語法分析(Syntactic Analysis):
利用語文法則去瞭解一個句子內,詞與詞之間應該有的正確順序、組合,與其一定程度遵守的「文法」。
語意分析(Semantic Analysis):
瞭解一個句子內詞與詞彼此的關係,以及句子所欲「表達的涵義」。
由上而下的階層或架構:
Ⅰ. 斷詞(Token):分析文本共有幾個詞(Words)(中文稱為字,英文稱為詞,後以詞統稱)。
Ⅱ. 停用詞(Stop Words):那些詞是重要、值得分析的,哪些是可以忽視的,例如:the、of、a、for等。
Ⅲ. 詞性標註(POS):句子內的詞,其屬性為何(形容詞、動詞、名詞)。
Ⅳ. 詞向量(Word Vectors):分析每個詞自身的特徵。
Ⅴ. 句法剖析(Parsing):瞭解這個句子結構、詞與詞彼此之間關係、哪個是主詞、哪個是受詞、哪個是謂詞。
Ⅵ. 命名實體識別(Named Entity Retrieval, NER):句子內有哪些主要的專有名詞。
Ⅶ. 分析句子主要意涵與意圖(Semantic):文本分類、摘要抽取、意圖分析等。
開發架構
基於法則的NLP(Rule Based NLP)開發架構:
1980年代專家系統時期的主要方法,NLP處理要靠if、then、else的法則來處理。這是一種「硬式」法則,必須完全一致才可以啟動法則。只能應用在領域範圍較小、句法簡單、關鍵字少而明確的小型QA系統。
基於機器學習方法的NLP開發架構(ML Based NLP):
Ⅰ. 利用直觀實用的知識取代法則:實際練習如何描述、如何騎腳踏車來取代瞭解說話的文法結構。
Ⅱ. 由下而上(Bottom Up)取代由上而下(Top Down):機器學習法是由下面的實例(Instance)往上自然瞭解語言的法則,而法則學派則是由上面的「法則」指導下面的「語言產出」。「機器學派是人類真正練習說話的方式;法則學派是『語言學家』認為語言應該要有的結構」。
Ⅲ. 由模仿取代理解:由大量語料的模仿人類真正說話的方式,來取代語言學家由法則的角度來瞭解、分析語言結構。
Ⅳ. 「特徵工程」取代「法則」:「特徵工程」為機器學派在NLP中最重要的,對於語言文字的理解必須先由人類專家來篩選該文本具有的特徵。
Ⅴ. 不同任務不同Model:有不同的特徵工程、不同選用的演算法。
Ⅵ. 預處理的重視:傳統機器學習方法及演算法的NLP,非常注重文字的「預處理」,包括詞與句階段的所有語法分析工具與語意分析工具,例如:斷詞、句法剖析(Parsing)等。
基於深度學習的NLP開發架構(DL Based NLP):
傳統機器學習演算法雖比法則學派在NLP上的處理更有效與精確,例如:非結構的語言辨識、語音生成、機器翻譯等。直到2015年後,一舉衝破障礙,在語音辨識、機器翻譯等方面達到95%正確率,逐漸取代傳統機器學習。
Ⅰ. 特徵工程方面:少了人為特徵工程階段,深度學習本身會自己學習與執行文字特徵抽取與篩選。
Ⅱ. 資料預處理方面:對於「預處理」(Preprocessing)並不是特別需要,由於其由大數據來學習,故在自我學習中,深度學習語言模型(Language Model)都已經自己學會並執行類似斷詞、停用詞、「詞性標註」,及「句法剖析」的工作。
Ⅲ. 詞向量方面:最主要核心工具就是所謂的「詞向量」(Word Vector),取代傳統的「法則」與機器學習所重視的計算詞「出現頻率」(Word Frequency)特徵工程。深度學習在NLP主要問題是需要非常大量的訓練資料,也需要非常大量的運算力及訓練成本,例如:BERT、GPT-3等。
混合型NLP開發架構(Mixed NLP Framework):
未來趨勢會是三種開發架構之結合的「混合型NLP模式」,例如:深度學習主攻下層「特徵抽取」(Feature Extracting),加上法則學派的「知識圖譜」、「專家系統」來增加語法結構性及上層知識邏輯推理的正確性。也可以再加上「資訊抽取」及「分類」非常有效的SVM、隨機森林、貝氏推理等機器學習法則來提升整體效率。
參考資料
人工智慧-概念應用與管理 林東清著
留言
追蹤
檢舉
上一篇
➤D-25 核心應用☞自然語言處理-1(基本概念與應用)
下一篇
➤D-27 核心應用☞自然語言處理-3(特徵抽取1)
系列文
進入AI的世界
共
30
篇
目錄
RSS系列文
訂閱系列文
3
人訂閱
26
➤D-26 核心應用☞自然語言處理-2(主要架構)
27
➤D-27 核心應用☞自然語言處理-3(特徵抽取1)
28
➤D-28 核心應用☞自然語言處理-4(特徵抽取2)
29
➤D-29 核心應用☞自然語言處理-5(主要演算模式1)
30
➤D-30 核心應用☞自然語言處理-6【完】(主要演算模式2)
完整目錄
熱門推薦
{{ item.subject }}
{{ item.channelVendor }}
|
{{ item.webinarstarted }}
|
{{ formatDate(item.duration) }}
直播中
立即報名
尚未有邦友留言
立即登入留言
iThome鐵人賽
參賽組數
403
組
團體組數
13
組
累計文章數
2939
篇
最後報名日
9/15
看影片追技術
看更多
{{ item.subject }}
{{ item.channelVendor }}
|
{{ formatDate(item.duration) }}
直播中
熱門tag
看更多
15th鐵人賽
16th鐵人賽
13th鐵人賽
14th鐵人賽
12th鐵人賽
11th鐵人賽
鐵人賽
2019鐵人賽
javascript
2018鐵人賽
python
2017鐵人賽
17th鐵人賽
windows
php
c#
windows server
linux
css
react
熱門問題
不知道網路紅隊的要去那加公司
鼎新ERP欄位可修改預設值嗎
更換FW後Public IP service無法使用
Ansible 連線主機的 port 不是 22 遇到的問題
備份映像檔
Outlook 寄件備份消失問題 (已解決)
aws ec2 檢查故障問題
請問有人遇過在lightsail上部屬fastapi失敗的案例?
IIS 管理員 連線功能不見
熱門回答
鼎新ERP欄位可修改預設值嗎
不知道網路紅隊的要去那加公司
Ansible 連線主機的 port 不是 22 遇到的問題
更換FW後Public IP service無法使用
備份映像檔
熱門文章
什麼是 Signal ?
第10天,No-Code 快速上線又省錢 / 原汁排骨湯 台北最好喝的排骨湯(台北萬華)| 30天滷肉飯
序: AI 加速編碼後,你該學什麼?
第11天,LibreOffice 更省錢 / 司機俱樂部 宵夜好選擇(台北松山)| 30天滷肉飯
第12天,即時通訊軟體選擇 / 金峰滷肉飯 台北名店(台北中正)| 30天滷肉飯
IT邦幫忙
×
標記使用者
輸入對方的帳號或暱稱
Loading
找不到結果。
標記
{{ result.label }}
{{ result.account }}